心电图(ECG)的解释给出了临床信息,并有助于评估心脏功能。存在与特定类别的arrythmia相关的不同的心电图图案。卷积神经网络实际上是ECG处理中最应用的深度学习算法之一。但是,对于深度学习模型,还有许多普遍的公共参数来调整。为卷积神经网络算法选择最佳或最佳的封面计是具有挑战性的。通常,我们最终通过不同可能的值范围手动调整模型,直到获得最佳拟合模型。使用贝叶斯优化(BO)和进化算法的自动封锁调整为港口手动配置提供了解决方案。在本文中,我们建议优化具有两个级别的经常性一维卷积神经网络模型(R-1D-CNN)。在第一级别,培训残余卷积层和一维卷积神经层以学习特定于患者特定的ECG特征,多层的Perceptron层可以学习产生每个输入的最终类载体。此级别是手动,并旨在降低搜索空间。第二级是自动的,基于所提出的基于算法的博。我们提出的优化R-1D-CNN架构是在两个公开的ECG数据集上进行评估。实验结果显示,基于算法的BO实现了99.95 \%的最佳速率,而基线模型对于MIT-BIH数据库实现99.70 \%。此外,实验表明,拟议的架构与BO微调的结构比其他拟议的架构更高的精度。与以前的作品相比,我们的建筑达到了良好的结果,并基于不同的实验。
translated by 谷歌翻译
We address interactive panoptic annotation, where one segment all object and stuff regions in an image. We investigate two graph-based segmentation algorithms that both enforce connectivity of each region, with a notable class-aware Integer Linear Programming (ILP) formulation that ensures global optimum. Both algorithms can take RGB, or utilize the feature maps from any DCNN, whether trained on the target dataset or not, as input. We then propose an interactive, scribble-based annotation framework.
translated by 谷歌翻译
We introduce an information-maximization approach for the Generalized Category Discovery (GCD) problem. Specifically, we explore a parametric family of loss functions evaluating the mutual information between the features and the labels, and find automatically the one that maximizes the predictive performances. Furthermore, we introduce the Elbow Maximum Centroid-Shift (EMaCS) technique, which estimates the number of classes in the unlabeled set. We report comprehensive experiments, which show that our mutual information-based approach (MIB) is both versatile and highly competitive under various GCD scenarios. The gap between the proposed approach and the existing methods is significant, more so when dealing with fine-grained classification problems. Our code: \url{https://github.com/fchiaroni/Mutual-Information-Based-GCD}.
translated by 谷歌翻译
Recent studies have revealed that, beyond conventional accuracy, calibration should also be considered for training modern deep neural networks. To address miscalibration during learning, some methods have explored different penalty functions as part of the learning objective, alongside a standard classification loss, with a hyper-parameter controlling the relative contribution of each term. Nevertheless, these methods share two major drawbacks: 1) the scalar balancing weight is the same for all classes, hindering the ability to address different intrinsic difficulties or imbalance among classes; and 2) the balancing weight is usually fixed without an adaptive strategy, which may prevent from reaching the best compromise between accuracy and calibration, and requires hyper-parameter search for each application. We propose Class Adaptive Label Smoothing (CALS) for calibrating deep networks, which allows to learn class-wise multipliers during training, yielding a powerful alternative to common label smoothing penalties. Our method builds on a general Augmented Lagrangian approach, a well-established technique in constrained optimization, but we introduce several modifications to tailor it for large-scale, class-adaptive training. Comprehensive evaluation and multiple comparisons on a variety of benchmarks, including standard and long-tailed image classification, semantic segmentation, and text classification, demonstrate the superiority of the proposed method. The code is available at https://github.com/by-liu/CALS.
translated by 谷歌翻译
弱监督的视频对象本地化(WSVOL)允许仅使用全局视频标签(例如对象类)在视频中找到对象。最先进的方法依赖于多个独立阶段,其中最初的时空建议是使用视觉和运动提示生成的,然后确定和完善了突出的对象。本地化是通过在一个或多个视频上解决优化问题来完成的,并且视频标签通常用于视频集群。这需要每件型号或每类制造代价高昂的推理。此外,由于无监督的运动方法(如光流)或视频标签是从优化中丢弃的,因此本地化区域不是必需的判别。在本文中,我们利用成功的类激活映射(CAM)方法,该方法是基于静止图像而设计的。引入了一种新的时间凸轮(TCAM)方法,以训练一种判别深度学习(DL)模型,以使用称为CAM-Temporal Max Max Pooling(CAM-TMP)的聚集机制在视频中利用时空信息,而不是连续的凸轮。特别是,感兴趣区域的激活(ROI)是从审计的CNN分类器生成的CAM中收集的,以构建Pseudo-Labels构建用于训练DL模型的伪标记。此外,使用全局无监督的尺寸约束和诸如CRF之类的局部约束来产生更准确的凸轮。对单个独立帧的推断允许并行处理框架片段和实时定位。在两个挑战性的YouTube-Objects数据集上进行无限制视频的广泛实验,表明CAM方法(在独立框架上训练)可以产生不错的定位精度。我们提出的TCAM方法在WSVOL准确性方面达到了新的艺术品,并且视觉结果表明它可以适用于后续任务,例如视觉对象跟踪和检测。代码公开可用。
translated by 谷歌翻译
我们探索了深度神经网络的软磁预测的聚类,并引入了一种新型的概率聚类方法,称为k-sbetas。在聚类分布的一般环境中,现有方法着重于探索针对单纯形数据(例如KL Divergence)量身定制的失真度量,作为标准欧几里得距离的替代方法。我们提供了聚类分布的一般观点,该观点强调,基于失真的方法的统计模型可能不够描述。取而代之的是,我们优化了一个可混合变量的目标,该目标测量了每个集群中数据的一致性与引入的SBETA密度函数,其参数受到约束并与二进制分配变量共同估​​算。我们的多功能公式近似于用于建模群集数据的各种参数密度,并使能够控制群集平衡偏置。这会产生高度竞争性的性能,以在各种情况下进行有效无监督的黑盒预测调整,包括一声分类和实时的无监督域适应道路,以进行道路分割。实施可在https://github.com/fchiaroni/clustering_softmax_predictions上获得。
translated by 谷歌翻译
我们解决了几个射击开放式识别(FSOSR)问题,即在我们只有很少的标签样本的一组类中分类的实例,同时检测不属于任何已知类别的实例。偏离现有文献,我们专注于开发模型不足的推理方法,这些方法可以插入任何现有模型,无论其架构或培训程序如何。通过评估嵌入的各种模型的质量,我们量化了模型 - 敏捷FSOSR的内在难度。此外,公平的经验评估表明,在FSOSR的电感环境中,KNN检测器和原型分类器的天真组合在专业或复杂方法之前。这些观察结果促使我们诉诸于转导,这是对标准的几次学习问题的流行而实用的放松。我们介绍了一个开放的设置转导信息最大化方法OSTIM,该方法幻觉了异常原型,同时最大程度地提高了提取的特征和作业之间的相互信息。通过跨越5个数据集的广泛实验,我们表明OSTIM在检测开放式实例的同时,在与最强的托管方法竞争时,在检测开放式实例时都超过了电感和现有的转导方法。我们进一步表明,OSTIM的模型不可知论使其能够成功利用最新体系结构和培训策略的强大表现能力而没有任何超参数修改,这是一个有希望的信号,即将来临的建筑进步将继续积极影响Ostim的表现。
translated by 谷歌翻译
分类一直是对对抗攻击的研究的焦点,但是只有少数著作调查了适合于更密集的预测任务的方法,例如语义分割。这些作品中提出的方法不能准确地解决对抗性分割问题,因此,在愚弄模型所需的扰动的大小方面,它过于充满乐趣。在这里,我们基于近端分裂的近端分裂提出了对这些模型的白色盒子攻击,以产生较小的$ \ ell_1 $,$ \ ell_2 $或$ \ ell_ \ ell_ \ infty $ norms的对抗性扰动。我们的攻击可以通过增强的Lagrangian方法以及自适应约束缩放和掩盖策略来处理非covex最小化框架内的大量约束。我们证明,我们的攻击明显胜过先前提出的攻击,以及我们适应细分的分类攻击,为这项密集的任务提供了第一个全面的基准。我们的结果推动了有关分割任务中鲁棒性评估的当前限制。
translated by 谷歌翻译
仅使用诸如图像类标签的全局注释,弱监督学习方法允许CNN分类器共同分类图像,并产生与预测类相关的感兴趣区域。然而,在像素水平的任何引导下,这种方法可以产生不准确的区域。已知该问题与组织学图像更具挑战,而不是与天然自然的图像,因为物体不太突出,结构具有更多变化,并且前景和背景区域具有更强的相似之处。因此,用于CNNS的视觉解释的计算机视觉文献中的方法可能无法直接适用。在这项工作中,我们提出了一种基于复合损耗功能的简单而有效的方法,可利用完全消极样本的信息。我们的新损失函数包含两个补充项:第一次利用CNN分类器收集的积极证据,而第二个利用来自CNN分类器的积极证据,而第二个互联网将利用来自训练数据集的完全消极样本。特别是,我们用解码器装备预先训练的分类器,该解码器允许精制感兴趣的区域。利用相同的分类器来收集像素电平的正面和负证据,以培训解码器。这使得能够利用自然地发生在数据中的完全消极样本,而没有任何额外的监督信号,并且仅使用图像类作为监督。与几种相关方法相比,在冒号癌的公共基准GLAS和使用三种不同的骨架的CONELYON16基于乳腺癌的CAMELYON16基准测试,我们展示了我们方法引入的大量改进。我们的结果表明了使用负数和积极证据的好处,即,从分类器获得的效益以及在数据集中自然可用的那个。我们对这两种术语进行了消融研究。我们的代码公开提供。
translated by 谷歌翻译
尽管深神经网络的占优势性能,但最近的作品表明它们校准不佳,导致过度自信的预测。由于培训期间的跨熵最小化,因此可以通过过度化来加剧错误烫伤,因为它促进了预测的Softmax概率来匹配单热标签分配。这产生了正确的类别的Pre-SoftMax激活,该类别明显大于剩余的激活。来自文献的最近证据表明,损失函数嵌入隐含或明确最大化的预测熵会产生最先进的校准性能。我们提供了当前最先进的校准损耗的统一约束优化视角。具体地,这些损失可以被视为在Logit距离上施加平等约束的线性惩罚(或拉格朗日)的近似值。这指出了这种潜在的平等约束的一个重要限制,其随后的梯度不断推动非信息解决方案,这可能会阻止在基于梯度的优化期间模型的辨别性能和校准之间的最佳妥协。在我们的观察之后,我们提出了一种基于不平等约束的简单灵活的泛化,这在Logit距离上强加了可控裕度。关于各种图像分类,语义分割和NLP基准的综合实验表明,我们的方法在网络校准方面对这些任务设置了新的最先进的结果,而不会影响辨别性能。代码可在https://github.com/by-liu/mbls上获得。
translated by 谷歌翻译